智能论文笔记

In-game Toxic Language Detection: Shared Task and Attention Residuals

Yuanzhe Jia , Weixuan Wu , Feiqi Cao , Soyeon Caren Han

分类：自然语言处理

2022-11-11

In-game toxic language becomes the hot potato in the gaming industry and community. There have been several online game toxicity analysis frameworks and models proposed. However, it is still challenging to detect toxicity due to the nature of in-game chat, which has extremely short length. In this paper, we describe how the in-game toxic language shared task has been established using the real-world in-game chat data. In addition, we propose and introduce the model/framework for toxic language token tagging (slot filling) from the in-game chat. The data and code will be released.

translated by 谷歌翻译

Developing an emotion-affective open-domain chatbot with positively transitioned sentiment data

Weixuan Wang , Wei Peng , Chong Hsuan Huang , Haoran Wang

分类：自然语言处理

2022-08-09

在本文中，我们描述了一种数据驱动的方法，用于开发艾米丽（Emily），一种情绪感染的开放域聊天机器人。提出的数据增强方法可以从多转话对话中明确模拟阳性过渡（PT）情感数据。我们使用PT情感数据构建对话语料库，并将其发布供公众使用。通过使用生产的PT增强对话进行验证的对话模型，我们能够开发一种情感感染性的开放式聊天机器人，该聊天机器人在各种情绪影响度指标中表现出几乎人类的表现。我们对艾米丽（Emily）进行评估，以针对一些最先进的（SOTA）开放域聊天机器人，并显示拟议方法的有效性。

translated by 谷歌翻译

Neural Architecture Search on Efficient Transformers and Beyond

Zexiang Liu , Dong Li , Kaiyue Lu , Zhen Qin , Weixuan Sun , Jiacheng Xu , Yiran Zhong

分类：自然语言处理

2022-07-28

最近，已经提出了许多有效的变压器，以降低由软磁性注意引起的标准变压器的二次计算复杂性。但是，他们中的大多数只是用有效的注意机制交换SoftMax，而无需考虑定制的体系结构，特别是为了有效的关注。在本文中，我们认为手工制作的香草变压器体系结构可用于软马克斯的注意力可能不适合有效的变压器。为了解决这个问题，我们提出了一个新框架，通过神经体系结构搜索（NAS）技术找到有效变压器的最佳体系结构。提出的方法在流行的机器翻译和图像分类任务上进行了验证。我们观察到，与标准变压器相比，有效变压器的最佳体系结构的计算降低，但总体准确性较低。这表明SoftMax的注意力和有效的注意力具有自己的区别，但它们都无法同时平衡准确性和效率。这激发了我们混合两种注意力以减少性能失衡。除了现有NAS变压器方法中常用的搜索空间外，我们还提出了一个新的搜索空间，该空间允许NAS算法与架构一起自动搜索注意变体。 WMT'EN-DE和CIFAR-10上的广泛实验表明，我们的搜索架构与标准变压器保持了可比的精度，并具有明显提高的计算效率。

translated by 谷歌翻译

Audio-Visual Segmentation

Jinxing Zhou , Jianyuan Wang , Jiayi Zhang , Weixuan Sun , Jing Zhang , Stan Birchfield , Dan Guo , Lingpeng Kong , Meng Wang , Yiran Zhong

分类：计算机视觉

2022-07-11

我们建议探索一个称为视听分割（AVS）的新问题，其中的目标是输出在图像帧时产生声音的对象的像素级映射。为了促进这项研究，我们构建了第一个视频分割基准（AVSBENCH），为声音视频中的声音对象提供像素的注释。使用此基准测试了两个设置：1）具有单个声源的半监督音频分割和2）完全监督的音频段段，并带有多个声源。为了解决AVS问题，我们提出了一种新颖的方法，该方法使用时间像素的视听相互作用模块注入音频语义作为视觉分割过程的指导。我们还设计正规化损失，以鼓励训练期间的视听映射。 AVSBench上的定量和定性实验将我们的方法与相关任务中的几种现有方法进行了比较，这表明所提出的方法有望在音频和像素视觉语义之间建立桥梁。代码可从https://github.com/opennlplab/avsbench获得。

translated by 谷歌翻译

MPC with Learned Residual Dynamics with Application on Omnidirectional MAVs

Maximilian Brunner , Weixuan Zhang , Ahmad Roumie , Marco Tognon , Roland Siegwart

分类：机器人

2022-07-04

空中操纵的生长场通常依赖于完全致动的或全向微型航空车（OMAV），它们可以在与环境接触时施加任意力和扭矩。控制方法通常基于无模型方法，将高级扳手控制器与执行器分配分开。如有必要，在线骚扰观察员拒绝干扰。但是，虽然是一般，但这种方法通常会产生次优控制命令，并且不能纳入平台设计给出的约束。我们提出了两种基于模型的方法来控制OMAV，以实现轨迹跟踪的任务，同时拒绝干扰。第一个通过从实验数据中学到的模型来优化扳手命令并补偿模型错误。第二个功能优化了低级执行器命令，允许利用分配无空格并考虑执行器硬件给出的约束。在现实世界实验中显示和评估两种方法的疗效和实时可行性。

translated by 谷歌翻译

Learning Variable Impedance Control for Aerial Sliding on Uneven Heterogeneous Surfaces by Proprioceptive and Tactile Sensing

Weixuan Zhang , Lionel Ott , Marco Tognon , Roland Siegwart

分类：机器人 | 机器学习

2022-06-28

能够与环境进行物理相互作用的新型航空车的最新发展导致了新的应用，例如基于接触的检查。这些任务要求机器人系统将力与部分知名的环境交换，这可能包含不确定性，包括未知的空间变化摩擦特性和表面几何形状的不连续变化。找到对这些环境不确定性的强大控制策略仍然是一个公开挑战。本文提出了一种基于学习的自适应控制策略，用于航空滑动任务。特别是，基于当前控制信号，本体感受测量和触觉感应的策略，实时调整了标准阻抗控制器的收益。在学生教师学习设置中，该策略通过简化执行器动力进行了模拟培训。使用倾斜臂全向飞行器验证了所提出方法的现实性能。所提出的控制器结构结合了数据驱动和基于模型的控制方法，使我们的方法能够直接转移并不从模拟转移到真实平台。与微调状态的相互作用控制方法相比，我们达到了减少的跟踪误差和改善的干扰排斥反应。

translated by 谷歌翻译

Vicinity Vision Transformer

Weixuan Sun , Zhen Qin , Hui Deng , Jianyuan Wang , Yi Zhang , Kaihao Zhang , Nick Barnes , Stan Birchfield , Lingpeng Kong , Yiran Zhong

分类：计算机视觉

2022-06-21

视觉变压器在众多计算机视觉任务上表现出了巨大的成功。然而，由于计算复杂性和记忆足迹是二次的，因此其中心分量（软磁性注意力）禁止视觉变压器扩展到高分辨率图像。尽管在自然语言处理（NLP）任务中引入了线性注意以减轻类似问题，但直接将现有的线性注意力应用于视觉变压器可能不会导致令人满意的结果。我们研究了这个问题，发现与NLP任务相比，计算机视觉任务更多地关注本地信息。基于这一观察结果，我们提出了附近的关注，该关注引入了具有线性复杂性的视觉变压器的局部性偏见。具体而言，对于每个图像补丁，我们根据其相邻贴片测量的2D曼哈顿距离调整了注意力重量。在这种情况下，相邻的补丁比遥远的补丁会受到更大的关注。此外，由于我们的附近注意力要求令牌长度比特征维度大得多，以显示其效率优势，因此我们进一步提出了一个新的附近视觉变压器（VVT）结构，以减少特征维度而不脱离准确性。我们在CIFAR100，ImagEnet1k和ADE20K数据集上进行了广泛的实验，以验证我们方法的有效性。当输入分辨率增加时，与以前的基于变压器和基于卷积的网络相比，GFLOP的增长率较慢。特别是，我们的方法达到了最新的图像分类精度，其参数比以前的方法少50％。

translated by 谷歌翻译

GETAM: Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation

Weixuan Sun , Jing Zhang , Zheyuan Liu , Yiran Zhong , Nick Barnes

分类：计算机视觉

2021-12-06

弱监督的语义分割（WSSS）是具有挑战性的，特别是当使用图像级标签来监督像素级预测时。为了弥合它们的差距，通常生成一个类激活图（CAM）以提供像素级伪标签。卷积神经网络中的凸轮患有部分激活，即，仅激活最多的识别区域。另一方面，基于变压器的方法在探索具有长范围依赖性建模的全球背景下，非常有效，可能会减轻“部分激活”问题。在本文中，我们提出了基于第一变压器的WSSS方法，并介绍了梯度加权元素明智的变压器注意图（GetAn）。 GetaN显示所有特征映射元素的精确激活，跨越变压器层显示对象的不同部分。此外，我们提出了一种激活感知标签完成模块来生成高质量的伪标签。最后，我们将我们的方法纳入了使用双向向上传播的WSS的结束框架。 Pascal VOC和Coco的广泛实验表明，我们的结果通过显着的保证金击败了最先进的端到端方法，并且优于大多数多级方法.M大多数多级方法。

translated by 谷歌翻译

Multi-instance Point Cloud Registration by Efficient Correspondence Clustering

Weixuan Tang , Danping Zou

分类：计算机视觉

2021-11-29

我们解决了目标点云中源点云的多个实例姿势的问题。现有解决方案需要采样大量假设以检测可能的实例并拒绝异常值，其稳健性和效率显着降低，当实例和异常值的增加时显着降低。我们建议直接将嘈杂的对应组织集团基于距离不变性矩阵基于不同的群集。实例和异常值通过群集自动识别。我们的方法是坚固且快速的。我们在合成和现实世界数据集中评估了我们的方法。结果表明，我们的方法可以在70％的异常值存在下，在存在70.46％的F1得分中正确地注册了20个实例，这比现有方法显着更好，至少10倍

translated by 谷歌翻译

Understanding Imbalanced Semantic Segmentation Through Neural Collapse

Zhisheng Zhong , Jiequan Cui , Yibo Yang , Xiaoyang Wu , Xiaojuan Qi , Xiangyu Zhang , Jiaya Jia

分类：计算机视觉 | 机器学习

2023-01-03

A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.

translated by 谷歌翻译